谷歌的项目Astra、Veo和Gemini升级战斗AI进展

这是谷歌对OpenAI的回应。

一个通用AI,一个可以真正日常使用的AI,如果现在不是这样,召开新闻发布会将是尴尬的。

在5月15日清晨,年度“科技界春晚”谷歌I/O开发者大会正式开始。在110分钟的主旨演讲中,人工智能被提及了多少次?谷歌已经统计出来了:

是的,AI每分钟都在被讨论。

生成AI的竞争最近达到了一个新高潮,这次I/O大会的内容自然围绕着人工智能展开。

“一年前在这个舞台上,我们首次分享了对原生多模态大型模型Gemini的计划。这标志着新一代I/O的到来,”谷歌首席执行官Sundar Pichai说。“今天,我们希望每个人都能受益于Gemini的技术。这些突破性的功能将渗透到搜索、图像、生产力工具、Android系统和许多其他方面。”

目前,1.5 Pro和1.5 Flash已对公众预览,提供了在谷歌AI工作室和Vertex AI中的100万token上下文窗口。现在,1.5 Pro还为通过等待名单的API开发者和谷歌云客户提供200万token上下文窗口。

此外,Gemini Nano已从纯文本输入扩展到图像输入。今年晚些时候,从Pixel开始,谷歌将推出多模态Gemini Nano。这意味着移动用户不仅可以处理文本输入,还可以理解更多上下文信息,如视觉、声音和口语。

Gemini家族迎来了新成员:Gemini 1.5 Flash

新的1.5 Flash在速度和效率上进行了优化。

新一代开源大型模型Gemma 2

今天,谷歌还发布了一系列更新,开源大型模型Gemma – Gemma 2来了。

如介绍所述,Gemma 2采用了一种新架构,旨在实现突破性的性能和效率,新的开源模型参数为27B。

当谈到长视频时,Veo可以生成60秒甚至更长的视频。它可以通过单个提示或提供一系列提示来讲述一个故事。这是视频生成模型在影视制作中应用的关键。

Veo基于谷歌在视觉内容生成方面的工作,包括生成查询网络(GQN)、DVD-GAN、图像到视频、Phenaki、WALT、VideoPoet、Lumiere等。